COVID-19导致与不同的SARS-COV-2变体相关的多种感染波。研究报告了这些变体对患者呼吸健康的影响不同。我们探索从COVID-19受试者收集的声学信号是否显示出可区分的声学模式,这表明有可能预测潜在的病毒变体。我们分析了从三个主题库中收集的COSWARA数据集,即i)健康,ii)在三角洲变体占主导地位期间记录的covid-199受试者,以及III)来自Omicron Expear中记录的COVID-19的数据。我们的发现表明,咳嗽,呼吸和语音等多种声音类别表明,在将COVID-19与Omicron和Delta变体进行比较时,声音特征差异很大。在曲线下,分类区域大大超过了被Omicron感染的受试者与三角洲感染者的机会。使用来自多个声音类别的得分融合,我们在95%的特异性下获得了89%和52.4%的敏感性的区域。此外,使用分层三类方法将声学数据分类为健康和共同-19阳性,并将进一步的COVID受试者分为三角洲和Omicron变体,从而提供了高水平的3类分类精度。这些结果提出了设计基于声音的COVID-19诊断方法的新方法。
translated by 谷歌翻译
COVID-19大流行已经加快了关于替代,快速有效的Covid-19诊断方法设计的研究。在本文中,我们描述了Coswara工具,这是一个网站应用程序,旨在通过分析呼吸声样本和健康症状来启用COVID-19检测。使用此服务的用户可以使用连接到Internet的任何设备登录到网站,提供当前的健康症状信息,并记录很少有对应于呼吸,咳嗽和语音的声音。在分析此信息上的一分钟内,网站工具将向用户输出COVID-19概率分数。随着COVID-19的大流行继续要求进行大规模和可扩展的人口水平测试,我们假设所提出的工具为此提供了潜在的解决方案。
translated by 谷歌翻译
PROteolysis TArgeting Chimeras (PROTACs) are an emerging therapeutic modality for degrading a protein of interest (POI) by marking it for degradation by the proteasome. Recent developments in artificial intelligence (AI) suggest that deep generative models can assist with the de novo design of molecules with desired properties, and their application to PROTAC design remains largely unexplored. We show that a graph-based generative model can be used to propose novel PROTAC-like structures from empty graphs. Our model can be guided towards the generation of large molecules (30--140 heavy atoms) predicted to degrade a POI through policy-gradient reinforcement learning (RL). Rewards during RL are applied using a boosted tree surrogate model that predicts a molecule's degradation potential for each POI. Using this approach, we steer the generative model towards compounds with higher likelihoods of predicted degradation activity. Despite being trained on sparse public data, the generative model proposes molecules with substructures found in known degraders. After fine-tuning, predicted activity against a challenging POI increases from 50% to >80% with near-perfect chemical validity for sampled compounds, suggesting this is a promising approach for the optimization of large, PROTAC-like molecules for targeted protein degradation.
translated by 谷歌翻译
大多数怀孕和出生会导致良好的结果,但是并不常见,当发生时,它们可能会与母亲和婴儿的严重影响相关。预测建模有可能通过更好地理解风险因素,增强监视以及更及时,更适当的干预措施来改善结果,从而帮助产科医生提供更好的护理。对于三种类型的并发症,我们使用可解释的提升机(EBM)(玻璃箱模型)来识别和研究最重要的风险因素,以获得清晰度:(i)严重的孕妇发病率(SMM),(ii)(iii)早产启示性。在使用EBM的解释性来揭示出对风险促成的特征的惊人见解时,我们的实验表明EBM与其他黑盒ML方法(例如深神经网和随机森林)的准确性相匹配。
translated by 谷歌翻译
机器学习模型的预测失败通常来自训练数据中的缺陷,例如不正确的标签,离群值和选择偏见。但是,这些负责给定失败模式的数据点通常不知道先验,更不用说修复故障的机制了。这项工作借鉴了贝叶斯对持续学习的看法,并为两者开发了一个通用框架,确定了导致目标失败的培训示例,并通过删除有关它们的信息来修复模型。该框架自然允许将最近学习的最新进展解决这一新的模型维修问题,同时将现有的作品集成了影响功能和数据删除作为特定实例。在实验上,提出的方法优于基准,既可以识别有害训练数据,又要以可普遍的方式固定模型失败。
translated by 谷歌翻译
机器学习(ML)可解释性技术可以揭示数据中的不良模式,这些模型模型开发以做出预测 - 一旦部署就会​​造成危害。但是,如何采取行动解决这些模式并不总是很清楚。在ML与人类计算机互动研究人员,医师和数据科学家之间的合作中,我们开发了GAM Changer,这是第一个互动系统,可帮助域专家和数据科学家轻松,负责任地编辑通用的添加剂模型(GAM)和修复有问题的模式。借助新颖的交互技术,我们的工具将可解释性置于行动中 - 使用户能够分析,验证和使模型行为与知识和价值相结合。医师已经开始使用我们的工具来调查和修复肺炎和败血症的风险预测模型,以及在不同领域工作的7位数据科学家的评估突出显示我们的工具易于使用,满足他们的模型编辑需求,并适合他们当前的工作流程。我们的工具以现代网络技术为基础,在用户的网络浏览器或计算笔记本电脑中本地运行,从而降低了使用的障碍。 GAM Changer可在以下公共演示链接中获得:https://interpret.ml/gam-changer。
translated by 谷歌翻译
多模式培训的最新进展使用文本描述,可以显着增强机器对图像和视频的理解。然而,目前尚不清楚语言在多大程度上可以完全捕捉不同方式的感官体验。一种表征感官体验的良好方法取决于相似性判断,即人们认为两个截然不同的刺激是相似的程度。我们在一系列大规模的行为研究($ n = 1,823美元的参与者)中探讨了人类相似性判断与语言之间的关系,这三种模式(图像,音频和视频)和两种类型的文本描述符:简单的文字描述符: - 文本字幕。在此过程中,我们引入了一条新型的自适应管道,用于标签挖掘,既有高效又是领域。我们表明,基于文本描述符的预测管道表现出色,我们将其与基于视觉,音频和视频处理体系结构的611基线模型进行了比较。我们进一步表明,文本描述符和模型在多种方式之间和模型之间预测人类相似性的程度各不相同。综上所述,这些研究说明了整合机器学习和认知科学方法的价值,以更好地了解人类和机器表示之间的相似性和差异。我们在https://words-are-are-all-you-need.s3.amazonaws.com/index.html上介绍了交互式可视化,以探索人类所经历的刺激和本文中报道的不同方法之间的相似性。
translated by 谷歌翻译
生物医学中的多模式数据遍布,例如放射学图像和报告。大规模解释这些数据对于改善临床护理和加速临床研究至关重要。与一般领域相比,具有复杂语义的生物医学文本在视觉建模中提出了其他挑战,并且先前的工作使用了缺乏特定领域语言理解的适应性模型不足。在本文中,我们表明,有原则的文本语义建模可以大大改善自我监督的视力 - 语言处理中的对比度学习。我们发布了一种实现最先进的语言模型,从而通过改进的词汇和新颖的语言预测客观的客观利用语义和话语特征在放射学报告中获得了自然语言推断。此外,我们提出了一种自我监督的联合视觉 - 语言方法,重点是更好的文本建模。它在广泛的公开基准上建立了新的最新结果,部分是通过利用我们新的特定领域的语言模型。我们释放了一个新的数据集,该数据集具有放射科医生的局部对齐短语接地注释,以促进生物医学视觉处理中复杂语义建模的研究。广泛的评估,包括在此新数据集中,表明我们的对比学习方法在文本语义建模的帮助下,尽管仅使用了全球对准目标,但在细分任务中的表现都优于细分任务中的先验方法。
translated by 谷歌翻译
神经网络和相关的深度学习方法目前处于用于分类对象的技术的前沿。但是,他们通常需要大量的时间和模型培训数据。他们学到的模型有时很难解释。在本文中,我们推进了FastMAPSVM(用于对复杂对象进行分类的可解释的机器学习框架),这是用于通用分类任务的神经网络的有利替代方法。 FastMAPSVM通过组合FastMap和SVM的互补强度,将支持矢量机(SVM)(SVM)的适用性扩展到具有复杂对象的域。 FastMap是一种有效的线性时间算法,该算法将复杂的对象映射到欧几里得空间中的指向,同时保留它们之间的成对域特异性距离。我们证明了FastMAPSVM在分类地震图的背景下的效率和有效性。我们表明,就精确,回忆和准确性而言,其性能与其他最先进的方法相当。但是,与其他方法相比,FastMAPSVM对模型培训的时间和数据量明显较小。它还提供了对象及其之间的分类边界的明显可视化。我们希望FastMAPSVM可行对于许多其他实际域中的分类任务。
translated by 谷歌翻译
神经文本到语音研究的最新进展是利用低级中间语音表示(例如MEL-光谱图)的两阶段管道主导的。但是,这种预定的特征从根本上受到限制,因为它们不允许通过学习隐藏表示形式来利用数据驱动方法的全部潜力。因此,已经提出了几种端到端方法。但是,这样的模型更难训练,并且需要大量具有转录的高质量录音。在这里,我们提出了WavThruvec-一种两阶段的架构,通过使用高维WAV2VEC 2.0嵌入作为中间语音表示,可以解决瓶颈。由于这些隐藏的激活提供了高级语言特征,因此它们对噪音更强大。这使我们能够利用质量较低的注释语音数据集来训练第一阶段模块。同时,由于WAV2VEC 2.0的嵌入已经进行了时间对齐,因此可以在大规模未转录的音频语料库上对第二阶段组件进行培训。这导致了对量表词的概括能力的提高,以及对看不见的说话者的更好概括。我们表明,所提出的模型不仅与最新神经模型的质量相匹配,而且还介绍了有用的属性,可以实现语音转换或零弹性合成的任务。
translated by 谷歌翻译